Model MolmoAct firmy Ai2 „myśli w 3D”, co może stanowić wyzwanie dla firm Nvidia i Google w dziedzinie sztucznej inteligencji w robotyce

Chcesz otrzymywać mądrzejsze informacje w swojej skrzynce odbiorczej? Zapisz się na nasz cotygodniowy newsletter, aby otrzymywać tylko to, co istotne dla liderów w dziedzinie sztucznej inteligencji, danych i bezpieczeństwa w przedsiębiorstwach. Subskrybuj teraz
Fizyczna sztuczna inteligencja, w której łączą się robotyka i modele podstawowe, szybko staje się rozwijającą się dziedziną, w której firmy takie jak Nvidia , Google i Meta publikują badania i eksperymentują z łączeniem dużych modeli językowych (LLM) z robotami.
Nowe badania przeprowadzone przez Instytut Allena ds. AI (Ai2) mają na celu rzucić wyzwanie firmom Nvidia i Google w dziedzinie fizycznej sztucznej inteligencji (AI) poprzez udostępnienie MolmoAct 7B, nowego modelu open source, który pozwala robotom „rozumować w przestrzeni”. MolmoAct, oparty na modelu open source Molmo firmy Ai2, „myśli” w trzech wymiarach. Firma udostępnia również swoje dane treningowe. Ai2 posiada licencję Apache 2.0 dla tego modelu, a zestawy danych są objęte licencją CC BY-4.0.
Ai2 klasyfikuje MolmoAct jako model rozumowania akcji, w którym modele bazowe rozumują na akcjach w fizycznej, trójwymiarowej przestrzeni.
Oznacza to, że MolmoAct może wykorzystać swoje możliwości rozumowania do zrozumienia świata fizycznego, zaplanowania sposobu, w jaki zajmuje on przestrzeń, a następnie podjęcia odpowiednich działań.
Skalowanie sztucznej inteligencji osiąga swoje granice
Limity mocy, rosnące koszty tokenów i opóźnienia w wnioskowaniu zmieniają oblicze sztucznej inteligencji w przedsiębiorstwach. Dołącz do naszego ekskluzywnego salonu i odkryj, jak najlepsze zespoły:
- Przekształcenie energii w przewagę strategiczną
- Projektowanie efektywnego wnioskowania w celu rzeczywistego zwiększenia przepustowości
- Odblokowanie konkurencyjnego zwrotu z inwestycji (ROI) dzięki zrównoważonym systemom AI
Zarezerwuj sobie miejsce i bądź na bieżąco : https://bit.ly/4mwGngO
„MolmoAct ma możliwości wnioskowania w przestrzeni 3D w porównaniu z tradycyjnymi modelami wizyjno-językowo-działaniowymi (VLA)” – powiedział Ai2 w e-mailu do VentureBeat. „Większość modeli robotycznych to VLA, które nie myślą ani nie rozumują w przestrzeni, ale MolmoAct ma takie możliwości, co czyni go bardziej wydajnym i uniwersalnym z architektonicznego punktu widzenia”.
Ponieważ roboty istnieją w świecie fizycznym, Ai2 twierdzi, że MolmoAct pomaga robotom zrozumieć otoczenie i podejmować lepsze decyzje dotyczące interakcji z nim.
„MolmoAct można zastosować wszędzie tam, gdzie maszyna musiałaby wnioskować o swoim otoczeniu fizycznym” – poinformowała firma. „Rozważamy to głównie w warunkach domowych, ponieważ to właśnie tam robotyka stoi przed największym wyzwaniem, ponieważ tam wszystko jest nieregularne i ciągle się zmienia, ale MolmoAct można zastosować wszędzie”.
MolmoAct potrafi rozumieć świat fizyczny, generując „przestrzennie ugruntowane tokeny percepcji”, które są tokenami wstępnie wytrenowanymi i wyodrębnionymi za pomocą wektorowo kwantyzowanego autokodera wariacyjnego lub modelu konwertującego dane wejściowe, takie jak wideo, na tokeny. Firma twierdzi, że tokeny te różnią się od tych używanych przez VLA tym, że nie są danymi wejściowymi w postaci tekstu.
Umożliwiają one MolmoAct zrozumienie przestrzeni i kodowanie struktur geometrycznych. Dzięki temu model szacuje odległość między obiektami.
Po oszacowaniu odległości MolmoAct przewiduje sekwencję punktów nawigacyjnych „przestrzeni obrazu” lub punktów w obszarze, do których może wyznaczyć ścieżkę. Następnie model rozpocznie wykonywanie określonych czynności, takich jak opuszczenie ramienia o kilka centymetrów lub wyciągnięcie się.
Naukowcy z Ai2 twierdzą, że udało im się dostosować model do różnych wcieleń (czyli zarówno ramienia mechanicznego, jak i robota humanoidalnego) „wymagając jedynie minimalnej precyzyjnej regulacji”.
Testy porównawcze przeprowadzone przez Ai2 wykazały, że MolmoAct 7B osiągnął wskaźnik powodzenia zadań na poziomie 72,1%, przewyższając modele firm Google, Microsoft i Nvidia.
Badania Ai2 to najnowsze badania wykorzystujące unikalne zalety programów LLM i VLM, zwłaszcza w obliczu stale rosnącego tempa innowacji w dziedzinie generatywnej sztucznej inteligencji. Eksperci w tej dziedzinie postrzegają prace Ai2 i innych firm technologicznych jako fundamenty.
Alan Fern, profesor z Oregon State University College of Engineering , powiedział VentureBeat, że badania Ai2 „stanowią naturalny postęp w udoskonalaniu modeli VLM w robotyce i rozumowaniu fizycznym”.
„Chociaż nie nazwałbym tego rewolucją, to ważny krok naprzód w rozwoju bardziej zaawansowanych modeli wnioskowania fizycznego 3D” – powiedział Fern. „Ich skupienie się na prawdziwie trójwymiarowym rozumieniu scen, zamiast polegania na modelach 2D, oznacza znaczący zwrot w dobrym kierunku. Wprowadzili ulepszenia w stosunku do poprzednich modeli, ale te testy porównawcze wciąż nie oddają rzeczywistej złożoności i pozostają stosunkowo kontrolowane i zabawne w swojej naturze”.
Dodał, że chociaż testy porównawcze wciąż wymagają udoskonalenia, „chętnie przetestuje ten nowy model w niektórych zadaniach z zakresu rozumowania fizycznego”.
Daniel Maturana, współzałożyciel startupu Gather AI , pochwalił otwartość danych, zauważając, że „to świetna wiadomość, ponieważ opracowywanie i trenowanie tych modeli jest kosztowne, więc stanowią one solidną podstawę do budowania i udoskonalania w innych laboratoriach akademickich, a nawet dla oddanych hobbystów”.
Wielu programistów i informatyków od dawna marzyło o stworzeniu inteligentniejszych lub przynajmniej lepiej świadomych przestrzennie robotów.
Jednak budowanie robotów, które szybko przetwarzają to, co „widzą”, a jednocześnie poruszają się i reagują płynnie, jest trudne. Przed pojawieniem się LLM naukowcy musieli kodować każdy ruch. Oznaczało to naturalnie dużo pracy i mniejszą elastyczność w zakresie rodzajów działań robotycznych. Obecnie metody oparte na LLM pozwalają robotom (a przynajmniej ramionom robotów) określać możliwe działania na podstawie obiektów, z którymi wchodzą w interakcję.
SayCan firmy Google Research pomaga robotowi w rozumowaniu zadań za pomocą LLM, umożliwiając mu określenie sekwencji ruchów niezbędnych do osiągnięcia celu. Platforma OK-Robot firmy Meta i Uniwersytetu Nowojorskiego wykorzystuje wizualne modele językowe do planowania ruchu i manipulowania obiektami.
Firma Hugging Face wypuściła robota stacjonarnego za 299 dolarów , dążąc do demokratyzacji rozwoju robotyki. Nvidia, która ogłosiła, że fizyczna sztuczna inteligencja będzie kolejnym wielkim trendem , wypuściła kilka modeli, aby przyspieszyć szkolenie robotów, w tym Cosmos-Transfer1 .
Fern z OSU twierdzi, że zainteresowanie sztuczną inteligencją fizyczną rośnie, mimo że liczba demonstracji jest nadal ograniczona. Jednak dążenie do osiągnięcia ogólnej inteligencji fizycznej, która eliminuje potrzebę indywidualnego programowania działań robotów, staje się coraz łatwiejsze.
„Krajobraz jest teraz bardziej wymagający, a owoców wiszących nisko jest mniej. Z drugiej strony, duże modele inteligencji fizycznej są wciąż na wczesnym etapie rozwoju i są znacznie bardziej gotowe na szybki postęp, co czyni tę przestrzeń szczególnie ekscytującą” – powiedział.
Jeśli chcesz zaimponować swojemu szefowi, VB Daily ma dla Ciebie rozwiązanie. Przedstawiamy Ci informacje z pierwszej ręki na temat tego, co firmy robią z generatywną sztuczną inteligencją, od zmian regulacyjnych po praktyczne wdrożenia, dzięki czemu możesz podzielić się swoimi spostrzeżeniami, aby zmaksymalizować zwrot z inwestycji (ROI).
Przeczytaj naszą Politykę prywatności
Dziękujemy za subskrypcję. Więcej newsletterów VB znajdziesz tutaj .
Wystąpił błąd.

venturebeat